home *** CD-ROM | disk | FTP | other *** search
/ Gigarom 1 / Gigarom Macintosh Archives (Quantum Leap)(CDRM1080320)(1993).iso / FILES / BBS / SECOND_SIGHT / Find Duplicates.cpt / ReadMe < prev    next >
Text File  |  1989-09-20  |  4KB  |  126 lines

  1. Finding Duplicates
  2. ------------------
  3.  
  4. This Stuffit document should contain:
  5.  
  6. FileTree 4.97  - a shareware disk cataloging utility by Jody S. Kravitz
  7.   
  8. Plus the following 4 freeware utilities by Mark J. Smith:
  9.   
  10. FormatTree 0.1 - utility to reorganize FileTree output
  11. SortTree 0.1   - utility to sort reformatted FileTree output
  12. FindExact 0.1  - utility to find "exact" matches
  13. FindOthers 0.1 - utility to find other "suspicious" matches
  14.  
  15. Here is a brief step-by-step guide to finding duplicate files using
  16. the above utilities.
  17.  
  18. 1. Launch FileTree
  19. 2. Using the File menu, create an output file
  20. 3. Using the Options menu, configure FileTree to report only
  21.   
  22.    (a) Total File Size
  23.    (b) Full Path Names
  24.   
  25. 4. Select a volume to catalog.
  26.  
  27. 5. Launch FormatTree and reformat the FileTree output.
  28. 6. Launch SortTree (requires 1.3 MB) and sort the reformatted output.
  29. 7. Launch FindExact to search the sorted output for duplicates.
  30. 8. Launch FindOthers to search for additional duplicates.
  31.  
  32. Note: you can use another program or utility to sort the reformatted
  33. output (esp. if memory requirements are a problem) but you will first
  34. need to open the reformatted file and remove the first 5 lines and
  35. last 3 lines of text. SortTree does this for you automatically.
  36.  
  37. A few words about each of the freeware utilities:
  38.  
  39. FormatTree 0.1
  40. --------------
  41.  
  42. This utility reformats output generated by the FileTree program.
  43.   
  44. The output must contain only 2 columns of information:
  45.   
  46.     (1) the file size in the 1st column
  47.     (2) the full pathname in the 2nd column
  48.   
  49. FormatTree will split this information into 3 columns as follows:
  50.   
  51.     (1) the filename in the 1st column
  52.     (2) the file size in the 2nd column
  53.     (3) the folder pathname in the 3rd column
  54.   
  55.   
  56. SortTree 0.1
  57. ------------
  58.  
  59. This utility sorts the output generated by the FormatTree program.
  60.  
  61. SortTree ignores the first 5 lines and last 3 lines of the input file.
  62. Otherwise, SortTree is a general purpose Quicksort program that can
  63. be used to sort any text file containing less than 12,000 lines.
  64.   
  65. If you use another program to sort the output from FormatTree, you
  66. need to remove the first 5 and last 3 lines manually before sorting.
  67.   
  68. SortTree requires 1.3 MB's of RAM under both Finder and Multifinder.
  69.   
  70.   
  71. FindExact 0.1
  72. -------------
  73.   
  74. This utility searches for exact matches between pairs of adjacent
  75. filenames. For this reason, input into this program must first be
  76. sorted into alphabetical order.
  77.   
  78. FindExact is unique in that it:
  79.   
  80.     (1) is case insensitive
  81.     (2) strips leading, trailing and embedded spaces
  82.     (3) strips underscore characters
  83.     (4) strips filename extensions
  84.   
  85. FindExact will find "My File.pit", "my_file.sit" and "MyFile.01" as
  86. exact duplicates.
  87.   
  88.   
  89. FindOther 0.1
  90. -------------
  91.   
  92. This utility searches for high probability matches between pairs of
  93. adjacent file names. For this reason, input into this program must
  94. first be sorted into alphabetical order.
  95.   
  96. FindOther finds and discards matches detected by FindExact. It then
  97. searches for file names which have 75% or more characters in common.
  98.   
  99. FindOther can find duplicates like:
  100.  
  101.     'Animation Stack' and 'AnimationStak.sit'
  102.     'DeskPict.sit', 'DeskPict1.0' and 'DeskPict_1.1.sit'
  103.     'GateKeeper111.sit' and 'Gate_Keeper_1.1.sit'
  104.  
  105. Note: FindOther will report many more non-duplicates than duplicates.
  106. However it reduces the search space (for you the user) to more
  107. manageable proportions by reporting only suspect cases (those with a
  108. high probability of being duplicates). It's utility lies in it's
  109. ability to identify cases like those illustrated above.
  110.   
  111. For further information or source code, please contact Mark J. Smith
  112. at one of the following locations:
  113.  
  114. GEnie: MJMS
  115. BIX:   MJMS
  116.  
  117. MAC-LINK BBS: 514-935-4257 (sysop)
  118.  
  119. DMI Systems
  120. 1028 Greene Ave.
  121. Montreal, QC  H3Z 1Z7
  122. CANADA
  123.  
  124. End of ReadMe.
  125.  
  126.